情報利得(information gain)

ある遷移($ s_{t-1},a_{t-1})→($ s_{t})を観測した時、環境の構造に関する信念(belief)をどれだけ更新できるか

遷移確率の不確実性が高いところを探索するようになる